بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش‌های پردازش زبان طبیعی و گراف شباهت

Authors

Abstract:

A significant amount of available information is stored in textual databases which contains a large collection of documents from different sources (such as news, articles, books, emails and web pages). The increasing visibility and importance of this class of information motivates us to work on having better automatic evaluation tools for textual resources. The automatic summarization of text is one of the ways to prevent the waste of users’ time. The extractive text summarization consists of the extraction of the more important sentences with the purpose of shortening input text while maintaining the topics covered and the subjects discussed. In this paper, we have tried to improve the accuracy of the extracted summaries by combining natural language processing and text mining techniques. By modifying the mentioned algorithms and sentence scoring measures, accuracy is increased as compared to the previously used techniques. Part of speech tagging is used for calculating coefficient of words’ importance. Using this approach will in turn help us with to pick the more meaningful words and phrases that will result in better accuracy of the system. Graph similarity‘s methods are used to select sentences. Changing weight of the selected sentences in each step leads to solve the redundancy problem. Standard evaluation measures such as “Precision” and “Recall” are used to evaluate results based on a Persian corpus.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

سیستم خودکار خلاصه ساز متون فارسی

دراین پژوهش روشی ترکیبی از الگوریتم ژنتیک و شبکه عصبی rbf برای خلاصه سازی استخراجیِ متون فارسی پیشنهاد شده است، که ابتدا به امتیازدهی پاراگراف ها پرداخته می شود، سپس پاراگراف های برتر را انتخاب کرده و به محاسبه امتیاز جملات آن ها می پردازد. همچنین جهت تعیین میزان اهمیت هر یک از ویژگی های جملات از یک شبکه عصبی mlp بهره گرفته شده است. سپس با استفاده از یک شبکه عصبی rbf به گزینش جملات برتر به عنوان...

خلاصه سازی خودکار متون فارسی مبتنی بر هستی شناسی

با توجه به گسترش روزافزون اطلاعات در دسترس از طریق اینترنت، لزوم استفاده از روش های خلاصه سازی خودکار متن، بیش از پیش احساس می شود. روش هایی که با استخراج مهمترین مطالب موجود در اسناد مانع از مطالعه کامل حجم انبوه از آنها شوند. خلاصه سازی عبارت است از فشرده سازی متن (متون) منبع و تولید یک نسخه کوتاه تر از آن به نحوی که محتوای اطلاعاتی آن حفظ شود. اغلب سیستم های خلاصه ساز با استفاده از روش های س...

15 صفحه اول

ارائه مدلی جدید جهت خلاصه سازی خودکار متون فارسی با رویکرد معنایی و استخراجی

خلاصه سازی خودکار متون به فرایندی اطلاق می شود که طی آن یک متن بزرگ، ضمن رعایت شرایطی، به متنی با حجم کمتر تبدیل می شود. تاکنون رویکردهای متعددی جهت خلاصه سازی ارائه شده است. در این پایان نامه، ضمن بررسی روش های موجود جهت خلاصه سازی خودکار متون، روش جدیدی با استفاده از رویکردهای مبتنی بر گراف، جهت خلاصه سازی متون فارسی ارائه شده است. در این روش جملات متن ورودی، در یک گراف کامل مدل شده و پس از ت...

15 صفحه اول

سنجش شباهت نظرات داوری آزاد و محتوای مقالات علمی به‌روش پردازش زبان طبیعی

هدف: شناسایی قابلیت داوری‌های آزاد در بازشناخت مقالات پزشکی براساس شباهت آنها به مقالات مربوط. روش‌شناسی: آزمونی متشکل از 2212 مقاله اف‌هزار ریسرچ و نظر‌ات داوری آنها ساخته شد. 100 مقاله به‌عنوان مدرک پایه به­صورت تصادفی انتخاب شد. شباهت نظرات داوری و محت...

full text

ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون

Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document Summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence,...

full text

خلاصه سازی ماشینی آماری متون فارسی

در این تحقیق سیستمی جهت خلاصه سازی آماری متون فارسی طراحی و پیاده سازی شده است.

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 33  issue 2

pages  885- 914

publication date 2018-03

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

No Keywords

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023